4.4 ¿Es necesaria la explicabilidad?

La explicabilidad es otro de los principios clave de la propuesta europea de IA confiable y, sin duda, va a ser clave en los próximos años en cuanto la regulación europea de IA entre en vigor.

XAI (Explainable AI) es un término que acuñó DARPA (Defense Advanced Research Project Agency) en el año 2017 y que agrupa dentro del término “explicabilidad” no solo el concepto de interpretabilidad para los algoritmos de machine learning, sino también los aspectos de la Psicología que están relacionados con proporcionar explicaciones, como se puede ver en la Fig. 4.2. No se trata únicamente de entender la toma de decisión del algoritmo, sino también de dar una explicación adecuada de por qué se toma dicha decisión, en función del tipo de usuario. Si se considera, por ejemplo, de un algoritmo que selecciona imágenes cuando contienen un posible tumor, no serán las mismas explicaciones las que necesitará un científico de datos que un médico. Para el científico de datos será mucho más útil revisar las métricas propias del algoritmo (exactitud, precisión, sensibilidad, etc.) y, además, saber cuáles de los atributos de entrada del algoritmo han tenido más peso en la decisión. En cambio, al médico lo que le interesará será una explicación menos técnica, más cualitativa en la que se le explique con detalle, por ejemplo, por qué se seleccionó esa imagen frente a otras, mencionando el tamaño, la forma o características de la imagen, aspectos con los que están familiarizados los profesionales médicos.

Los algoritmos pueden clasificarse en algoritmos de caja blanca o transparente (aquellos que son fácilmente interpretables) y opacos o de caja negra (los que no son interpretables y que requieren de herramientas adicionales para su interpretación). Normalmente se tiene que establecer un equilibrio entre la interpretabilidad y la exactitud, dado que son métricas que mantienen una relación inversa (véase Fig. 4.3). A mayor exactitud, menor interpretabilidad, y viceversa. Los algoritmos más interpretables son normalmente los más sencillos, como los algoritmos de clasificación, regresión lineal o los árboles de decisión. Otros, como los modelos de random forest, XGboost o algoritmos de deep learning, son mucho más exactos pero no tan interpretables, lo cual puede llevar a ciertos problemas a la hora de usarlos en la toma de decisiones en las compañías, dado que es más difícil explicar el porqué de la decisión. Cuando las decisiones afectan a áreas clave para las personas (decisiones médicas, de contratación, de concesión de préstamos, etc.) es cuando más relevante resulta proporcionar la explicabilidad adecuada.

Figura 4.3: Interpretabilidad v s . exactitud.

Se está avanzando muy rápido en la interpretabilidad de los algoritmos y desde 2017 se proporcionan distintas técnicas y herramientas que ayudan a ello, como, por ejemplo, las librerías SHAP (SHapley Additive exPlanation) o LIME (Local Interpretable Model-agnostic Explanations), de código abierto. En la mayoría de las ocasiones, se trata de utilizar algoritmos más sencillos que ayuden a explicar otros más complejos como redes neuronales o XGboost.

Hay muchas taxonomías diferentes para la clasificación de los distintos tipos de algoritmos. Una de las más utilizadas clasifica los algoritmos como sigue:

Metodologías globales o locales: cuando el método utiliza una instancia para la interpretabilidad se denomina local y cuando este usa todo el modelo se denomina global.
Metodologías intrínsecas o post hoc: “intrínseca” se refiere a cuando el método es interpretable por sí mismo y post hoc, cuando es necesario usar otros algoritmos más sencillos para explicar los más complejos.
Metodologías ligadas al modelo o agnósticas del modelo: las metodologías ligadas al modelo son aquellas que se usan para un tipo de algoritmo concreto, mientras que las metodologías agnósticas permiten trabajar con cualquier tipo de modelo.

Es importante elegir la técnica más adecuada dependiendo del tipo de modelo a interpretar, así como poder combinarlas en aras de conseguir una mejor interpretabilidad. Uno de los mejores libros al respecto que recopila multitud de estas técnicas es Molnar (2020).